在今年3月,我们推出了“合成数据”系列文章,系统性分析了合成数据的起源,以及在大模型训练和应用中的作用,并基于其价值和风险,讨论可及性和安全性,给出数据治理的相关建议。近期,合成数据出现的频率越来越高,比如阿里巴巴的Qwen2、NV的Nemotron-4以及通用具身智能体研究小组GEAR、OpenAI的CriticGPT等均在技术报告中所有提及,凸显了其在模型训练中愈加重要的作用。本文从模型能力视角出发,梳理了合成数据有哪些新趋势和新动态,如何有针对性地提升模型能力,同时针对人们对合成数据可能导致模型“失控”的隐忧,提出了提升技术透明度的解决方案。
一、合成数据进一步扩展数据来源、提高数据质量,更有针对性地提升模型性能
1.1 预训练:提升语料“可用性”,满足进一步提高模型性能的数据需求
在应用中对基础大模型的能力需求有三种趋势:一是基础大模型需要具备类人的问题解决能力,对模型复杂推理能力要求更高,这也被认为是开启模型能力的关键;二是随着AI智能体(AI Agent)的推广和应用,对模型规划、决策、操作能力需要更精准,有助于提升AI Agent表现;三是随着基础大模型toB端应用从更通用的场景(如办公、编程、营销等),拓展到需要融合专业场景核心数据后的专业toB应用(如金融、制造、医疗等),对基础模型在领域知识的理解能力需求日益强烈。在理想情况下,应先在预训练阶段将用于训练这些能力的语料喂给大模型,通过之后的对齐阶段更好地激发相关性能。
然而挑战是,真实世界可以直接用于提升上述能力的语料积累严重不足,因为在大模型应用推广之前,人类并不特别关注相关语料在互联网中的积累。仅依靠人类提升供给,其积累速度远不能满足模型的训练需求。此时,合成数据提供了很好的技术方案,利用其灵活性,在预训练中可以对所需语料进行针对性补充、扩展和强化,由非结构化的形态转化为结构化,由不可用转化为可用,更好提升模型在下游任务中的能力。在3月,我们提出合成数据是预训练的新物种,特别提到了在多模态数据和(部分类型的)领域知识生成中的作用(推荐阅读2《合成数据:大模型训练和应用的新方案》),结合这几个月的发展,我们重点梳理合成数据对以上三类语料的作用。
其一,合成数据可以用于补充思维链(CoT)的中间推理链路。现实情况下,某些语料往往只有问题和答案,并没有中间的推理过程,利用合成数据可以补充中间的分步骤推理,将语料转化为可供复杂推理训练的高质量语料。例如数学问题中原始语料通常是问题和答案(比如选择题和填空题),利用合成数据可以补充对问题的分析和解答过程。再如,医疗相关语料中,现实中常见的诊疗数据通常只有患者症状及医生用药的记录,而合成数据可以用于补充推理过程:从患者症状推测病因,根据病因推断哪些药有效,结合患者条件选择用哪种药最好。
其二,利用合成数据可以将人类的工作流或操作记录用自然语言表达,用来训练Agent能力。例如在就餐场景下对人类记录的采集,首先打开APP位置权限,然后选择推荐的餐厅,获取排队就餐号,到最终支付买单。合成数据可以将这些操作记录点按顺序形成一段文字,成为提升模型Agent能力的语料。此外,类似的方法还可以用来增强模型对风险序列的识别能力。例如利用合成数据可以学习人类在正常状态下进行修改密码操作的习惯,比如先选择修改或忘记密码、然后输入旧秘密、最后输入新密码。当模型识别到有异常操作逻辑的时候,可以对风险序列进行预警,提升安全防护水平。
其三,在领域知识生成方面,合成数据也在不断对数据利用方式进行拓展。一方面是对时序数据的处理,例如通过对物联网(IoT)设备采集的时序数据,通过合成数据可以将 tn与tn-1 的数据和状态做“投影”,形成数据片段(Patch),让模型学习不同时间段对应的变化规律,将原始数据转换为领域知识。另一方面,领域知识的生成也在越来越多利用模型举一反三的推理能力,将一条知识拓展成多条。当然,这些合成数据并不是全部直接应用在训练过程中,在准确性和真实性方面还需要校验与确认,避免用错误的信息训练模型导致幻觉的产生。
1.2 对齐:探索模型“由弱到强”,人机协作突破“天花板”
随着模型能力愈加强大,在对齐阶段也迎来了新的挑战:基于监督微调(SFT)和人类反馈的强化学习(RLHF)是创造出大模型的核心技术之一,但隐患在于人类能力就是SFT和RLHF的天花板。随着AI能力变强,犯的错也不太显眼,人类训练师难以发现不准确之处;或是随着对AI能力的需求持续提升,对指令响应的标注需要更大量专业知识、经验、耐心的任务,而人类无法满足需求时,AI就无法继续改进了。针对这个问题,OpenAI在去年年底提出了由弱模型监督训练更强模型(Weak-to-Strong)的方式,即用弱一点的模型标注数据,精调更强的基础模型,得到的效果好于弱模型本身。进而可以推断出:用人类标注的数据,精调强于人类的基础模型,其性能就可能超越人类。
合成数据最近的很多尝试集中在以自博弈(Self-play)实现Weak-to-Strong,伴随着学界的诸多探索,“由弱到强”的对齐在产业实践逐渐开始显露曙光。自博弈最著名的应用是从AlphaGO到AlphaZero演进的深度学习模型。AlphaGO通过监督学习模仿人类顶尖棋手的围棋棋谱进行训练,并结合自我对弈来不断优化性能。而AlphaZero则完全摒弃了人类围棋知识,仅通过自我对弈的方式学习,并且不仅限于围棋,还能应用于其他棋类游戏。
大模型Self-play的内涵是在数据有限的情况下,提高模型的学习效能(Efficiency),让“学生模型”的能力超越“教师模型”成为可能。在该环节中,大模型试图模拟人类如何消化理解复杂数学教材的过程,比如内心对材料的思考、与学习伙伴的讨论交流、面对问题不断尝试直至最终解决,从而使模型能够从有限的数据中学习到更多的内容。OpenAI最新发布的CriticGPT就是一个典型案例。CriticGPT训练的步骤主要有三个:一是让人类标注员在GPT4生成的代码(合成数据)里故意植入一些微妙的漏洞或错误(bug);二是标注员扮演代码审查员的角色,写下他们对这些bug的评论;三是用这些数据来训练,让模型学会如何发现和指出代码中的问题。在该过程中通过引入Self-play提升学习效率,比如不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT,让其被迫不断进化,学会发现越来越隐蔽的问题。而CriticGPT在找bug方面的成功(包括代码与非代码任务),意味着RLHF的上限可能不再是人类,人们设想中“由弱到强”的可扩展监督是有希望得到实现的。
需要说明的是,大模型Self-play并不是靠“左脚踩右脚一步步登天”来实现,而是需要在早期阶段,有另一个模型或者人类的参与,对合成数据进行筛选,保障数据质量。例如NV最新发布的Nemotron-4大模型在技术报告中特别提到了奖励模型和人类参与的重要性。首先,奖励模型在对齐中起着至关重要的作用,是训练NV大模型时用于偏好排序和质量过滤的重要评判者(合成数据)。奖励模型为每个样本分配一个分数,并过滤掉那些低于预定阈值的样本,保证保留下来的都是高质量数据。这些合成的高质量偏好数据有三种类型:提示、选择的响应、被拒绝的响应。另外,人的参与也同样不可或缺。基于“有用性”和“真实性”这两个维度,NV技术人员详细定义了质量等级的具体内容,为模型的答复进行打分和排序,在减少主观性的同时,提升了可靠性。
除了应用于Self-play,合成数据技术还广泛应用于需要大规模专业知识、经验、和耐心的指令响应标注,用以弥补人类标注的不足。一是多模态的对齐,需要相匹配的“图像-文本对”或“视频-文本对”等形式,但现有可直接用于对齐的数据量级比较少,而完全靠人力标注需要耗费大量时间和精力。合成数据可以用于大规模生成图文、视频的相应文字表述,进行对齐训练。二是领域知识问答对提取,合成数据可以将领域知识(如法律、医疗等)抽提出来,通过改写自动生成“问题-答案”对,用于对模型掌握领域知识的能力进行微调。三是对模型执行特定任务有帮助的标注。例如模型为了提升角色扮演能力需要获取生动的角色扮演数据集,而对于未经专门培训的人类标注员,创作高质量的响应(如文学创作)极具挑战。为此,阿里巴巴集团的Qwen2采取数据再利用方法,从维基百科等知识库获取详细的角色档案,并指示大模型生成相应的指令和响应。这一过程类似阅读理解任务,确保角色特征的完整性得到保持。
1.3 具身智能:拓展数据“可及性”,让模型触达采集成本高、非结构化的行业数据
随着模型能力提升,基于Transformer架构的模型还会以“领域数据+独立模型+专项应用”的形式更多在独立toB领域的行业模型中得到应用,其中最具代表性的就是人形机器人领域(推荐阅读3《大模型时代:消失的飞轮》)。具身智能领域在训练时面临真实数据稀缺,采集难度大、成本高的困难。根据Coatue的最新报告,对比不同模态下的最大数据集,文本模态约15万亿词元(Tokens),图片模态有60亿图文配对数据,视频模态有26亿视听特征数据,而机器人模态只有240万个数据片段。这是因为用于训练身体智能(Physical Intelligence)的数据在网络世界中很少有相关的存储,相比其他模态的数据积累远远不够。此外,真实数据还会包含大量未经处理的,以不同格式记录不同行为的非结构化数据,不能直接被用于模型训练,使得语义与数据的精准对齐变得异常困难,在语义歧义、模型幻觉的安全等方面带来挑战。
整体看,具身智能训练所需的数据类型大致分为三种:一是用于提升基础感知和理解能力,以文本、图片、音视频为主的“视听智能”数据;二是用于提升空间形态理解和操作能力的“3D智能”数据,如常见的“力量-空间位置”混合数据集;三是使机器人具备与人类相似的反应能力,这需要结合更多维度的“环境智能”数据,比如由手部触觉形成的温度、压力、纹理等数据。这些不同类型的数据统一在时间尺度做“多模态对齐”,经过行动-反馈(Action-Response)的闭环优化,完成从单一动作到单一任务,再到多任务技能的能力提升。目前真实训练数据的来源主要有两种:一是用被动数据或模型进行学习,例如通过Youtube视频等多媒体形式掌握基础的感知和语义理解能力,但精准度距离实际应用会有较大差距;二是通过遥操作(Tele-operation),即通过人类远程控制设备或机器进行操作的技术,以第一视角操控机器人,当人的手臂摆动时,机器人也会跟着运动,由此进行数据收集。然而该方法获取数据会带来高额的时间和人力成本;此外,也会在应用中带来复杂操作执行能力较强,但整体泛化能力不足的问题。
合成数据为解决具身智能训练数据问题,特别是对提升空间形态理解和类人反应能力方面提供了一种更务实的方案,常见的方法是从模拟环境到真实世界迁移(Sim-to-Real)。首先要对机器人的物理结构进行详细建模,对物理本体进行数字化映射,模拟各个组件和关节运动。然后利用传感器将人所在环境扫描并传输到云端,通过实时数据同步系统,将环境信息实时反馈给虚拟模型,确保“虚实”环境的一致性和实时性。在数字孪生环境中,对机器人的行为动作、反馈控制、环境感知进行仿真和训练。最后,当仿真评估有效后,将训练好的策略平滑应用到真实机器人上,进行虚实同步的测试和优化,使开发和训练效果大幅提升。当然,其难点在于,合成数据与真实数据之间存在数据分布的差异,以及实时性不强和精度不足的问题。因此,利用此方法训练,又会出现模型泛化能力较强,但执行复杂操作能力不足的问题。
当然,合成数据对基于Transformer架构的“领域数据+独立模型+专项应用”的领域,不仅限于具身智能的训练,还广泛于科研领域(AI for Science)和智能驾驶等方面。比如在气象与环境领域,合成数据可以用于模拟复杂的自然现象和环境变化,为预测和应对气候变化提供支持;在生物医药领域,可以通过模拟罕见疾病的数据,用于靶点识别和新药研发,辅助人类创新;在智能驾驶领域,可以模拟正常和异常情况下的驾驶数据,用于模型应对复杂多变的驾驶环境。
1.4 通过与真实数据混合使用,合成数据推动大模型能力的跃迁
从合成数据与真实数据的混合配比看,其比例会随模型训练阶段和模型类别的不同而变化。尽管不同模型会有差异,但整体上可以发现合成数据的“渐进性”趋势:基础大模型在预训练阶段仍以真实数据为主导(根据对技术人员的访谈,合成数据占比预估约5%-10%),合成数据作为有针对性提供高质量语料类型的补充,可以进一步提升模型性能。而在对齐阶段,合成数据占比提升,与真实数据规模大致相似(有些可能更高,比如NV的Nemotron-4合成数据占98%)。对于具身智能领域,利用数字孪生方法训练的人形机器人则以合成数据为主导(例如优必选的训练数据80%通过仿真环境合成)。可见,这种混合比例并不是可以提前进行人为预判,而取决于真实场景数据的可及性和可用性。
展望合成数据对模型能力层级的跃迁,在对齐环节的应用或成为突破口。近日,OpenAI按照AI系统的自主性、智能化水平和实际应用能力,推出了一套对AI功能的等级评判标准。这个标准一共有五个等级,用来评判AI软件接近甚至超越人类智力的程度。从合成数据对模型能力提升的视角看,在基础模型对齐环节是最有希望通过Self-play实现“由弱到强”的可扩展监督,以人机协作的方式突破人类能力“天花板”,让AI系统在更广泛的任务中达到甚至超越人类水平,成为拥有组织管理能力、可独立运作的"组织者"。
2.1 合成数据有针对性的拓展模型能力,实现能力跃迁
合成数据以其技术的灵活性,可以有针对性的,在基础模型预训练和对齐阶段,以及具身智能等领域专属模型的训练中,大规模生成真实世界中不易获取的语料类型,拓展模型相应能力。合成数据已经从训练的”新物种”和“新方案”,演变成为提升模型性能表现甚至实现能力跃迁,打破应用瓶颈的“突破口”。因此对于合成数据的治理的整体原则,我们提出应在发展中治理,动态管控潜在风险;同时基于促进开发利用的目标确定合成数据的保护规则,“中间产品”类型的合成数据是高质量数据的重要来源,是提升模型能力潜力的重要工具,不宜过早过度保护(推荐阅读4《合成数据:治理之智》)。
2.2 合成数据治理应关注人类的参与和监督,基础模型对齐阶段是重点
随着合成数据在模型训练的各个阶段中应用不断增多,一方面,人们不免会加重对其“失控”的隐忧;另一方面,企业在内部研发阶段对合成数据会有相应管理措施,但难以自证。解决该问题,需要根据合成数据应用的不同方式和不同阶段加以区分。
其一,对齐阶段合成数据是突破人类“天花板”的潜在方向,但如果处理不当又可能是导致“失控”的源头,应给予重点关注。首先,需要引入人类的参与和监督,以人工抽检等形式,确保合成数据过程和质量的可控性,以及模型调优和对齐的质量,在使用中不断完善和迭代。其次,对齐阶段合成数据较多应用于对齐和安全调优,提升安全能力的场景,具有明显的正外部性,应鼓励这类提升安全能力的合成数据集开放共享,体现“人工智能安全是公共产品”的核心理念。一种可行的方式是在保障商秘的前提下,增强企业对齐阶段合成数据技术透明度的披露,解决信息不对称问题,缓解用户侧和政府侧的顾虑,提升可信度和安全性。透明度披露可以包含以下几方面:一是经过同行评议,以论文或技术报告的形式公布,接受公众的监督和检验。二是披露样本数据集,比如合成的“提示词-回答”(Prompt-Response)样例,或是在魔搭社区、Hugging Face等开源社区上传安全数据集。三是合成数据的产生过程,特别是要突出人类或第三方模型对合成数据质量筛选和过滤的环节。四是合成数据自身的质量评估,体现对合成数据在与真实数据相比的保真度(Fidelity)、对模型训练的有用性(Utility)、对用户隐私保护的隐私性(Privacy)等方面的衡量。五是利用合成数据训练模型的效果,以人类评估或与第三方模型作为基准线进行对比。
其二,针对应用于垂直领域的合成数据,可以基于市场竞争机制的筛选,更高效的判断合成数据的质量,暂不需要过早、过度的对数据进行规制。比如在具身智能、自动驾驶等领域,合成数据需要前期大量行业经验和实践积累,在应用中调试数据配比和使用规则,以及工程师对数据质量的筛选和把控,使其具备较高的实用性和价值性。对这些有商业秘密属性的合成数据,应尊重企业选择,遵循市场竞争规律,让价值在模型训练和应用中得到检验,以实质性贡献进行收益分配。而在垂直领域更值得关注的点,是如何利用合成数据与真实数据混合训练后的模型,在应用开发侧结合具体场景与产生的数据类型,使应用数据更好地被利用起来,反哺基础模型,使其能力不断突破。例如,具身智能大模型在应用中,会产生基于真实世界的大量天然的“多模态对齐”数据,比如在某一时间段,机器人所看(视觉)、所听(听觉)、所感(触觉)、所对应操作指令的结构化数据片段,这正是目前Physical Intelligence训练时遇到的数据短板。而如何更巧妙地设计软硬件和数据架构,更高效地对应用数据进行加工处理,进而反哺模型训练,学习更多潜在规律,不断突破能力边界,或将成为数据方面的新趋势。
感谢阿里研究院AI产业研究中心主任周搏、阿里研究院高级行业研究专家杨军、阿里巴巴集团高级算法专家李天宇、蚂蚁集团高级算法专家郑行对本文提供理论支持和技术指导。